本文提出了一种新的加速马尔可夫链蒙特卡洛(MCMC)方法,以在成像逆问题中有效地执行贝叶斯计算。所提出的方法源自兰格文扩散过程,并源于紧密整合两个最先进的近端Langevin MCMC采样器,SK-ROCK和SPLIST GIBBS采样(SGS),它们采用明显不同的策略来提高收敛速度。更确切地说,我们在Langevin扩散过程的水平上展示了如何集成基于随机的Runge-Kutta-chebyshev扩散的近端SK-ROCK采样器,该采样器具有模型增强和放松策略,可用于扩散以牺牲渐近偏差为代价加快贝叶斯计算的速度。这导致了一种新的,更快的近端SK-ROCK采样器,将原始SK-Rock采样器的加速质量与增强和放松的计算益处相结合。此外,我们建议将增强和放松的模型视为目标模型的近似值,而是将放松定位在偏见 - 差异权衡中,而是建议将增强和放松的模型视为目标模型的概括。然后,这使我们能够仔细校准放松量,以同时提高模型的准确性(通过模型证据衡量)和采样器的收敛速度。为了实现这一目标,我们得出了一种经验性的贝叶斯方法,可以通过最大的边际似然估计自动估计最佳的松弛量。通过与图像脱毛和内化相关的一系列数值实验,以及与艺术状态的替代方法进行比较,证明了所提出的方法。
translated by 谷歌翻译
近年来,深度学习在图像重建方面取得了显着的经验成功。这已经促进了对关键用例中数据驱动方法的正确性和可靠性的精确表征的持续追求,例如在医学成像中。尽管基于深度学习的方法具有出色的性能和功效,但对其稳定性或缺乏稳定性的关注以及严重的实际含义。近年来,已经取得了重大进展,以揭示数据驱动的图像恢复方法的内部运作,从而挑战了其广泛认为的黑盒本质。在本文中,我们将为数据驱动的图像重建指定相关的融合概念,该概念将构成具有数学上严格重建保证的学习方法调查的基础。强调的一个例子是ICNN的作用,提供了将深度学习的力量与经典凸正则化理论相结合的可能性,用于设计被证明是融合的方法。这篇调查文章旨在通过提供对数据驱动的图像重建方法以及从业人员的理解,旨在通过提供可访问的融合概念的描述,并通过将一些现有的经验实践放在可靠的数学上,来推进我们对数据驱动图像重建方法的理解以及从业人员的了解。基础。
translated by 谷歌翻译
自Venkatakrishnan等人的开创性工作以来。 2013年,即插即用(PNP)方法在贝叶斯成像中变得普遍存在。这些方法通过将显式似然函数与预定由图像去噪算法隐式定义的明确定义,导出用于成像中的逆问题的最小均方误差(MMSE)或最大后验误差(MAP)估计器。文献中提出的PNP算法主要不同于他们用于优化或采样的迭代方案。在优化方案的情况下,一些最近的作品能够保证收敛到一个定点,尽管不一定是地图估计。在采样方案的情况下,据我们所知,没有已知的收敛证明。关于潜在的贝叶斯模型和估算器是否具有明确定义,良好的良好,并且具有支持这些数值方案所需的基本规律性属性,还存在重要的开放性问题。为了解决这些限制,本文开发了用于对PNP前锋进行贝叶斯推断的理论,方法和可忽略的会聚算法。我们介绍了两个算法:1)PNP-ULA(未调整的Langevin算法),用于蒙特卡罗采样和MMSE推断; 2)PNP-SGD(随机梯度下降)用于MAP推理。利用Markov链的定量融合的最新结果,我们为这两种算法建立了详细的收敛保证,在现实假设下,在去噪运营商使用的现实假设下,特别注意基于深神经网络的遣散者。我们还表明这些算法大致瞄准了良好的决策理论上最佳的贝叶斯模型。所提出的算法在几种规范问题上证明了诸如图像去纹,染色和去噪,其中它们用于点估计以及不确定的可视化和量化。
translated by 谷歌翻译
Recent work has shown that fine-tuning large pre-trained language models on a collection of tasks described via instructions, a.k.a. instruction-tuning, improves their zero and few-shot generalization to unseen tasks. However, there is a limited understanding of the performance trade-offs of different decisions made during the instruction-tuning process. These decisions include the scale and diversity of the instruction-tuning benchmark, different task sampling strategies, fine-tuning with and without demonstrations, training using specialized datasets for reasoning and dialogue, and finally, the fine-tuning objectives themselves. In this paper, we characterize the effect of instruction-tuning decisions on downstream task performance when scaling both model and benchmark sizes. To this end, we create OPT-IML Bench: a large benchmark for Instruction Meta-Learning (IML) of 2000 NLP tasks consolidated into task categories from 8 existing benchmarks, and prepare an evaluation framework to measure three types of model generalizations: to tasks from fully held-out categories, to held-out tasks from seen categories, and to held-out instances from seen tasks. Through the lens of this framework, we first present insights about instruction-tuning decisions as applied to OPT-30B and further exploit these insights to train OPT-IML 30B and 175B, which are instruction-tuned versions of OPT. OPT-IML demonstrates all three generalization abilities at both scales on four different evaluation benchmarks with diverse tasks and input formats -- PromptSource, FLAN, Super-NaturalInstructions, and UnifiedSKG. Not only does it significantly outperform OPT on all benchmarks but is also highly competitive with existing models fine-tuned on each specific benchmark. We release OPT-IML at both scales, together with the OPT-IML Bench evaluation framework.
translated by 谷歌翻译
We describe a Physics-Informed Neural Network (PINN) that simulates the flow induced by the astronomical tide in a synthetic port channel, with dimensions based on the Santos - S\~ao Vicente - Bertioga Estuarine System. PINN models aim to combine the knowledge of physical systems and data-driven machine learning models. This is done by training a neural network to minimize the residuals of the governing equations in sample points. In this work, our flow is governed by the Navier-Stokes equations with some approximations. There are two main novelties in this paper. First, we design our model to assume that the flow is periodic in time, which is not feasible in conventional simulation methods. Second, we evaluate the benefit of resampling the function evaluation points during training, which has a near zero computational cost and has been verified to improve the final model, especially for small batch sizes. Finally, we discuss some limitations of the approximations used in the Navier-Stokes equations regarding the modeling of turbulence and how it interacts with PINNs.
translated by 谷歌翻译
Accurately predicting interactive road agents' future trajectories and planning a socially compliant and human-like trajectory accordingly are important for autonomous vehicles. In this paper, we propose a planning-centric prediction neural network, which takes surrounding agents' historical states and map context information as input, and outputs the joint multi-modal prediction trajectories for surrounding agents, as well as a sequence of control commands for the ego vehicle by imitation learning. An agent-agent interaction module along the time axis is proposed in our network architecture to better comprehend the relationship among all the other intelligent agents on the road. To incorporate the map's topological information, a Dynamic Graph Convolutional Neural Network (DGCNN) is employed to process the road network topology. Besides, the whole architecture can serve as a backbone for the Differentiable Integrated motion Prediction with Planning (DIPP) method by providing accurate prediction results and initial planning commands. Experiments are conducted on real-world datasets to demonstrate the improvements made by our proposed method in both planning and prediction accuracy compared to the previous state-of-the-art methods.
translated by 谷歌翻译
传播模型已被证明对各种应用程序有效,例如图像,音频和图形生成。其他重要的应用是图像超分辨率和逆问题的解决方案。最近,一些作品使用了随机微分方程(SDE)将扩散模型推广到连续时间。在这项工作中,我们介绍SDE来生成超分辨率的面部图像。据我们所知,这是SDE首次用于此类应用程序。所提出的方法比基于扩散模型的现有超级分辨率方法提供了改进的峰值信噪比(PSNR),结构相似性指数(SSIM)和一致性。特别是,我们还评估了该方法在面部识别任务中的潜在应用。通用面部特征提取器用于比较超分辨率图像与地面真相,并获得了与其他方法相比,获得了卓越的结果。我们的代码可在https://github.com/marcelowds/sr-sde上公开获取
translated by 谷歌翻译
完全自主移动机器人的现实部署取决于能够处理动态环境的强大的大满贯(同时本地化和映射)系统,其中对象在机器人的前面移动以及不断变化的环境,在此之后移动或更换对象。机器人已经绘制了现场。本文介绍了更换式SLAM,这是一种在动态和不断变化的环境中强大的视觉猛烈抨击的方法。这是通过使用与长期数据关联算法结合的贝叶斯过滤器来实现的。此外,它采用了一种有效的算法,用于基于对象检测的动态关键点过滤,该对象检测正确识别了不动态的边界框中的特征,从而阻止了可能导致轨道丢失的功能的耗竭。此外,开发了一个新的数据集,其中包含RGB-D数据,专门针对评估对象级别的变化环境,称为PUC-USP数据集。使用移动机器人,RGB-D摄像头和运动捕获系统创建了六个序列。这些序列旨在捕获可能导致跟踪故障或地图损坏的不同情况。据我们所知,更换 - 峰是第一个对动态和不断变化的环境既有坚固耐用的视觉大满贯系统,又不假设给定的相机姿势或已知地图,也能够实时运行。使用基准数据集对所提出的方法进行了评估,并将其与其他最先进的方法进行了比较,证明是高度准确的。
translated by 谷歌翻译
代理商必须连续监视其伴侣的情感状态,以了解和参与社交互动。但是,评估情感识别的方法不能说明在情感状态之间的阻塞或过渡期间可能发生的分类绩效的变化。本文解决了在婴儿机器人相互作用的背景下影响分类表现的时间模式,在这种情况下,婴儿的情感状态有助于他们参与治疗性腿部运动活动的能力。为了支持视频记录中面部遮挡的鲁棒性,我们训练了婴儿使用面部和身体功能的识别分类器。接下来,我们对表现最佳模型进行了深入的分析,以评估随着模型遇到丢失的数据和不断变化的婴儿影响,性能如何随时间变化。在高度信心提取功能的时间窗口期间,经过训练的面部功能的单峰模型与在面部和身体特征训练的多模式模型相同的最佳性能。但是,在整个数据集上评估时,多模型模型的表现优于单峰模型。此外,在预测情感状态过渡并在对同一情感状态进行多个预测后改善时,模型性能是最弱的。这些发现强调了将身体特征纳入婴儿的连续影响识别的好处。我们的工作强调了随着时间的流逝和在存在丢失的数据的存在时,评估模型性能变异性的重要性。
translated by 谷歌翻译
公共数据集在推进车牌识别(LPR)的最新技术方面发挥了关键作用。尽管数据集偏见在计算机视觉社区中被认为是一个严重的问题,但在LPR文献中很大程度上忽略了它。 LPR模型通常在每个数据集上进行训练和评估。在这种情况下,他们经常在接受培训的数据集中证明了强大的证明,但在看不见的数据集中表现出有限的性能。因此,这项工作研究了LPR上下文中的数据集偏差问题。我们在八个数据集上进行了实验,在巴西收集了四个,在中国大陆进行了实验,并观察到每个数据集都有一个独特的,可识别的“签名”,因为轻量级分类模型预测了车牌(LP)图像的源数据集,其图像的源95%的精度。在我们的讨论中,我们提请人们注意以下事实:大多数LPR模型可能正在利用此类签名,以以失去概括能力为代价,以改善每个数据集中的结果。这些结果强调了评估跨数据库设置中LPR模型的重要性,因为它们提供了比数据库内部的更好的概括(因此实际性能)。
translated by 谷歌翻译